Production agents need recoverable failure boundaries
Production agents need recoverable failure boundaries
Insight
프로덕션 에이전트 설계의 핵심은 “모델이 얼마나 오래 일할 수 있는가”보다 “어디가 망가져도 안전하게 버리고 이어갈 수 있는가”다. 하네스와 컴퓨트를 분리하고, 샌드박스는 임시 실행환경으로 두며, 상태는 스냅샷/재수화 가능한 외부 계층에 두어야 장시간 작업이 운영 가능해진다.
Why It Matters
긴 작업을 수행하는 에이전트는 컨테이너 만료, 네트워크 오류, tool 실패, 모델 중단을 피할 수 없다. 실패 경계가 없으면 한 번의 sandbox failure가 전체 업무 실패나 상태 손실로 이어진다.
Implications
- 샌드박스는 가능한 한 stateless/ephemeral하게 설계한다.
- 중요한 파일 상태는 명시적으로 snapshot/replay/rehydration 가능한 위치에 저장한다.
- secrets는 샌드박스에 직접 넣지 않고 하네스/권한 계층에서 통제한다.
- 외부 효과가 있는 액션은 [Human Approval Boundary](/notes/30-concepts__Human Approval Boundary/)를 둔다.
Related Concepts
- [Agent Harness](/notes/30-concepts__Agent Harness/)
- [Ephemeral Agent Sandbox](/notes/30-concepts__Ephemeral Agent Sandbox/)
- [Human Approval Boundary](/notes/30-concepts__Human Approval Boundary/)
Sources
- [OpenAI Build Hour - Agents SDK](/notes/10-sources__OpenAI Build Hour - Agents SDK/)